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摘要 : 

好 奇 是 驱动 信息 寻求 行为 最 主要 的 内 部 动机 。 从 感知 信息 缺口 使 好 奇 发 生 , 到 对 控制 进 
行 价值 评估 ， 信 息 寻求 行为 发 生 ， 再 到 目标 信息 获得 使 好 奇 满 足 ， 每 一 环节 都 受到 当前 信息 
输入 和 上 一 环节 反馈 输出 的 影响 ， 它们 构成 了 一 个 反馈 循环 。 该 循环 还 嵌入 在 个 体 的 终生 发 
展 过 程 中 , 随 着 经 验 积累 和 脑 的 发 育 不 断 变化 。 好 奇 反 馈 循环 模型 融入 了 控制 的 期 望 价值 模 
型 和 贝 叶 斯 强化 学 习 框架 ， 整合 了 来 自 监控 系统 、 奖 党 系统、 控制 系 统 等 多 个 脑 功 能 系统 的 
研究 证 据 ， 为 理解 好 奇 的 神经 生理 机 制 提 供 了 新 思路 。 
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Abstract: 

Curiosity is the main intrinsic motivation driving information-seeking behavior 
The curiosity feedback loop model decomposes a curious event into the following six 
processes: perceived information gap, curiosity generation, value assessment of 
control, information seeking, curiosity satisfaction, and information integration. 
These processes create a positive feedback loop that contributes to sustainable 
knowledge acquisition. The model emphasizes the dynamic and changing nature of 
curiosity. In addition, this dynamic loop of curiosity is embedded in the lifelong 
development of the individual, changing as experience is accumulated and the brain 
develops. The model incorporates the expected value of control model and Bayesian 


reinforcement learning framework, and integrates research evidence from multiple 


functional brain systems such as the monitoring system, reward system, and control 
system. The model provides new ideas for understanding the neurophysiological 
mechanisms of curiosity. 
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好 奇 ， 尤 其 是 知识 好 奇 (epistemic curiosity) 在 人 们 的 日 常 学 习 和 生活 中 扮演 
着 重要 的 角色 ,在 过 去 的 几 十 年 里 , 大 量 的 实证 研究 已 经 证 实 好 奇 可 以 促进 学 习 、 
改善 认 知 、 激 发 创造 ， 甚 至 缓解 焦虑 (Baer et al., 2012; Hardy et al., 2017; Hagtvedt 
et al., 2019; Harrison & Dossinger, 2017; Gruber et al., 2019; Kashdan & Roberts, 
2006)。 从 理论 探讨 到 问卷 调查 ， 从 行为 实验 到 神经 生理 研究 ， 有 些 研究 者 关注 
好 奇 的 特质 性 ， 有 些 研究 者 强调 好 奇 状态 性 (Berlyne, 1954; Cervera et al., 2020; 


Kashdan & Ficham, 2004; Litman & Silvia, 2006; Loewenstein, 1994; Murayama et 
al., 2019)。 但 经 常 被 研究 者 们 忽视 的 一 点 是 一 一 好 奇 是 在 变化 发 展 的 ， 它 会 随 着 
经 验 的 积累 和 脑 的 发 育 不 断 变 化 和 发 展 。 因 此， 本 文 将 从 动态 发 展 的 视角 看 待 好 
奇 ， 以 反馈 循环 模型 为 框架 ,探讨 从 好 奇 发 生 到 好 奇 满 足 的 神经 生理 机 制 。 首先 
对 好 奇 的 概念 进行 辨析 和 界定 。 随 后 ,对 构成 好 奇 反馈 循环 模型 的 各 个 阶段 进行 
阐述 。 接 着 ,对 好 奇 在 个 体 生命 周期 中 的 变化 与 发 展 进行 总 结 。 最 后 ， 对 基于 该 
模型 的 未 来 研究 提出 建议 。 

1 好 奇 的 概念 界定 

构建 一 个 关于 好 奇 的 整合 模型 遇 到 的 第 一 个 问题 就 是 以 往 文献 对 好 奇 的 概 
念 界定 并 不 清晰 。 十 九 世 纪 末 ，James(1891) 认 为 好 奇 是 为 了 适应 生存 而 演化 出 
来 的 主动 探索 环境 的 本 能 。 半 个 多 世纪 后 ，Berlyne(1954) 用 驱 力 减少 理论 (drive 
reduction theory) 来 解释 好 奇 ， 认 为 好 奇 是 一 种 对 信息 的 泥 望 ， 就 像 饥饿 一 样 ， 需 
要 被 满足 。 驱 力 减 少 理论 最 早 由 Hull(1943) 提 出 ， 他 认为 驱 力 是 一 种 动机 结构 ， 
通过 给 机 体力 量 或 能 量 引 发 行为 ， 以 满足 需求 ， 进 而 减弱 驱 力 。Berlyne(1957) 
认为 好 奇 是 一 种 令 人 厌恶 的 状态 , 新 异性 和 不 确定 性 会 引起 好 奇 。 而 信息 寻求 行 
为 的 目的 就 是 解决 不 确定 性 , 从 而 解除 这 种 令 人 厌恶 的 状态 。 此 外 , Berlyne(1954) 
还 把 好 奇 分 成 了 知识 好 奇 (epistemic curiosity) 和 知觉 好 奇 (perceptual curiosity)。 其 
中 ,知识 好 奇 是 对 知识 信息 的 淘 望 ， 主 要 适用 于 成 年 人 类 ; 知觉 好 奇 是 对 新 异性 
感官 刺激 的 渴望 ， 除 成 年 人 类 外 ， 在 动物 和 人 类 婴儿 中 也 有 所 表现 。 正 是 这 种 渴 
E, 驱动 着 个 体 的 一 系列 探索 行为 ,在 提出 好 奇 的 驱 力 减少 理论 后 , Berlyne(1970) 
又 指出 好 奇 遵循 最 佳 唤醒 原则 ， 刺 激 新 异 度 太 高 会 导致 焦 虑 ， 太 低 会 导致 无 聊 ， 
只 有 新 异 度 居中 时 好 奇 水 平 最 高 , 愉悦 度 也 最 高 。 这 似乎 与 他 先前 的 描述 相 了 矛盾 ， 
一 是 按照 “ 驱 力 减少 理论 ”了 驱 力 应 该 随 着 刺激 的 新 异 程度 增加 而 单调 递增 ， 进 
而 驱动 更 多 的 信息 寻求 行为 ， 二 是 新 异 刺激 造成 的 驱 力 增加 对 应 的 是 厌恶 情 绪 ， 
那么 愉悦 情绪 从 何 而 来 。 若 从 动态 过 程 角度 看 竺 好奇， 这 两 个 矛盾 似乎 就 迎 刃 而 
EIT. 首先 ， 好 奇 的 发 生 是 有 条 件 的 ， 当 刺激 引起 的 唤醒 度 太 高 或 太 低 时 诱发 的 
便 不 是 好 奇 , 或 者 说 不 单纯 是 好 奇 , 其 它 动 机 的 产生 会 削弱 信息 寻求 行为 。 另 外 ， 
新 异性 和 不 确定 性 促使 驱 力 增 加 而 引起 厌恶 情绪 , 这 和 随 着 新 异性 和 不 确定 性 降 
低 促 使 驱 力 减 少 而 带 来 愉悦 情绪 , 两 种 情绪 发 生 的 时 间 节 点 不 同 , 并 不 存在 冲突 。 

到 了 1994 年 ，Loewenstein(1994) 提 出 了 “信息 缺口 ”理论 (information-gap 
theory)， 认 为 信息 缺口 会 引发 好 奇 。 例 如 不 确定 性 、 新 异性 、 复 杂 性 、 意 外 性 等 ， 
这 些 能 引发 好 奇 的 特性 ,本 质 上 都 与 先 验 知识 的 局 限 性 有 关 , 会 使 个 体 产 生 信息 
缺口 。Loewenstein(1994) 认 为 好 奇 是 感知 到 信息 缺 口 而 形成 的 认 知 剥夺 。 与 驱 力 
理论 一 样 , 信息 缺口 理论 认为 好 奇 为 信息 寻求 提供 动力 , 目的 是 消除 信息 缺口 带 
来 的 厌恶 状态 。Loewenstein(1994) 还 指出 ， 信 息 本 里 的 价值 就 足以 驱动 个 体 的 信 
妨 寻 求 行 为 ， 哪 怕 这 些 信息 并 不 服务 于 其 它 的 即时 目标 。 

于 是 ，Oudeyer 等 人 (2016) 明 确 将 好 奇 归 到 内 部 动机 的 概念 框架 之 下 ， 认 为 
好 奇 是 一 种 内 部 动机 。Ryan 和 Deci(2000) 将 内 部 动机 定义 为 “驱动 个 体 为 了 乐趣 
或 挑战 而 非 外 在 物品 、 压 力 或 奖励 而 产生 行为 的 动力 。 个 体 为 了 内 在 的 满足 而 做 
一 件 事 ， 享 受 的 是 活动 本 身 而 不 是 它 的 工具 价值 。”* 与 内 部 动机 不 同 ,“ 外 部 动机 
驱动 的 活动 具有 明显 的 目的 性 ， 为 的 是 获得 活动 之 外 的 工具 性 结果 。” 两 者 的 区 
别 在 于 是 否 具 有 工具 性 目的 。 好 奇 符合 内 部 动机 的 特点 , 目标 信息 本 号 的 价值 就 
足够 产生 信息 寻求 ， 而 无 须 附加 其 它 的 工具 性 价值 (Bennett et al., 2016; Lau et al., 
2020; Marvin & Shohamy, 2016; Oosterwijk et al., 2020). 


以 上 关于 好 奇 的 定义 更 多 是 把 好 奇 当 作 暂 时 的 状态 来 理解 , 是 个 体 针对 环境 
特征 所 表达 的 瞬间 体验 , 即 具有 状态 性 。 也 有 一 些 研究 者 认为 好 奇 还 是 一 种 会 持 
续 对 新 知识 或 新 经 验 产生 渴望 的 性 格 倾向 ， 即 具有 特质 性 (Kashdan & Ficham, 
2004; Litman & Silvia, 2006), 并 据 此 开发 了 一 系列 关于 好 奇 的 测量 工具 , 包括 《 兴 
趣 /剥夺 型 知识 好 奇 量 表 》 (ID type Epistemic Curiosity Scale; Litman, 2008)、《 好 
奇 和 探索 清单 I》(Curiosity and Exploration Inventory I，CEI-I; Kashdan et al., 
2009)、《 五 维度 好 奇 量 表 》 (Five-Dimensional Curiosity Scale, SDC; Kashdan et al., 
2018) 等 。 这 些 测量 工具 通常 涉及 三 个 方面 的 问题 : 对 信息 的 淘 望 程度 (动机 )、 信 
妨 寻 求 行为 发 生 的 强度 (行为 ) 以 及 信息 寻求 时 的 情绪 状态 (情绪 )。 

可 以 看 到 的 是 ， 在 这 些 对 好 奇 的 界定 中 ,涉及 到 动机 、 行 为 和 情绪 一 一 如 减 
少 不 确 定性 的 动机 ， 寻求 信息 的 行为 ,对 信息 缺口 的 厌恶 或 是 面 对 新 异 刺激 的 愉 
悦 等 ， 它 们 似乎 都 反映 了 好 奇 。 

但 问题 是 , 好奇 的 本 质 是 什么 ? 想 要 深入 探讨 好 奇 ， 必须 有 一 个 更 为 清晰 的 
定 。 虽 然 表 达 有 所 不 同 ， 但 大 多 数 研 究 者 都 认为 好 奇 能 为 信息 寻求 提供 动力 
(Berlyne, 1954; Loewenstein, 1994; Oudeyer et al., 2016)， 即 好 奇 的 本 质 是 动机 ， 
而 且 是 以 获得 信息 本 身 而 非 其 它 附加 价值 为 目标 的 内 部 动机 。 结 合 Loewenstein 
的 信息 缺口 理论 ， 本 文 想 要 探讨 的 好 奇 是 个 体感 知 到 信息 缺口 后 产生 的 内 部 动 
机 。 好 奇 作 为 信息 寻求 的 其 中 一 个 驱动 力 而 存在 .情绪 伴随 着 好 奇 的 产生 而 产生 ， 
随 着 行为 和 行为 结果 的 变化 而 变化 。 正如 从 扳机 扣 动 到 射 中 目标 是 一 个 过 程 , 行 
为 (信息 寻求 等 ) 和 情绪 (厌恶 、 愉 悦 、 无 聊 等 ) 就 是 好 奇 这 个 扳机 扣 动 后 引发 的 一 
系列 可 能 的 状态 和 结果 。 想象 一 下 , 在 日 常生 活 中 , 当 你 表达 “我 很 好 奇 ” 的 时 候 ， 
更 多 想 要 传达 的 可 能 是 “我 想 知道 ”这样 一 种 状态 ， 而 “ 想 知 道 ” 反 映 的 是 动机 。 而 
动机 发 生 就 必然 存在 动机 的 满足 或 不 满足 ， 从 好 奇 发 生 到 好 奇 满 足 ， 究 竟 会 经 历 
一 个 怎样 的 过 程 ， 本 文 将 在 下 一 部 分 进行 曾 述 。 

2 好 奇 在 短 时 反馈 循环 中 的 变化 与 影响 

虽然 好 奇 本 质 上 是 动机 ,但 好 奇 动 机 是 一 系列 好 奇 相关 事件 的 开端 ， 这 个 开 
端 又 会 受到 后 续 事 件 结果 的 影响 ， 也 就 是 说 ， 从 好 奇 友 生 到 好 奇 满 足 构 成 了 一 个 
反馈 回路 (feedback loop)。 这 个 反馈 回路 主要 包括 “感知 信息 缺口 -好 奇 发 生 -控制 
的 价值 评估 -信息 寻求 -好 奇 满 足 -信息 整合 "六 个 阶段 ， 该 结构 与 Murayama 等 
(2019) 的 知识 获取 的 奖励 性 学 习 框 架 (reward-learning framework of knowledge 
acquisitiom) 基 本 一 致 。Murayama 认为 可 持续 的 知识 获取 从 意识 到 知识 缺口 开始 ， 
之 后 个 体会 发 起 信息 寻求 行为 , 直到 获取 相应 知识 感受 到 奖励 ,进一步 强化 了 信 
妃 寻 求 行 为 ， 同 时 知识 库 扩 增 使 得 人 们 更 容易 探测 到 知识 缺口 。 另 外 ，Gruber 
和 Ranganath (2019) 的 预测 、 评 价 、 好 奇 、 探 索 (prediction, appraisal, curiosity, and 
exploration, PACE) 模 型 认为 好 奇 始 于 预测 偏差 , 接着 个 体 对 该 偏差 指向 的 未 来 信 
妨 进行 价值 评估 ， 进 而 引发 好 奇 和 探索 行为 ,并 最 终 促进 学 习 和 记忆 。 奖 励 性 学 
习 框 架 关 注 的 是 知识 获取 的 过 程 ， 认 为 “好 奇 ””“ 兴 趣 ”“ 吃 惊 ”等 只 是 人 们 对 
知识 获取 过 程 中 产生 的 各 种 体验 的 事后 解释 。PACE 模型 认为 好 奇 是 信息 价值 评 
估 的 结果 ,强调 好 奇 对 记忆 的 影响 。 本 文 认为 好 奇 的 本 质 是 知识 获取 行为 发 生 的 
主要 动力 ， 关 注 的 是 好 奇 的 动态 变化 性 。 

无 论 具体 表达 如 何 ， 以 上 模型 本 质 上 均 源 于 强化 学 习 (reinforcement learning, 
RL) 模 型 (Rescorla, 1972; Sutton & Barto, 1998)。 所 谓 RL, 研究 的 是 自然 和 人 工 系 
统 如 何在 环境 中 学 习 预 测 结 果 ， 并 进行 行为 优化 的 过 程 。RL 的 关键 是 通过 强化 
物 改变 行为 和 动机 。 该 理论 脱胎 于 心理 学 ， 目 前 被 广泛 用 于 经 济 学 、 机 器 学 习 等 


领域 (Sutton & Barto, 2018). 与 一 般 RL 相 比 , 好奇 诱 发 信息 寻求 最 重要 的 特点 在 
于 强化 物 是 满足 好 奇 的 信息 本 身 。 

本 文 在 前 述 好 奇 的 反馈 循环 模型 时 , 将 重点 放 在 了 每 个 阶段 的 神经 生理 机 制 
上 。 模 型 将 好 奇 定位 在 内 部 动机 上 ， 把 信息 寻求 行为 作为 好 奇 的 诱发 结果 、 情 绪 
作为 好 奇 的 伴生 产物 ， 强 调 好 奇 的 动态 变化 性 ( 见 图 1a)。 根 据 Loewenstein(1994) 
的 信息 缺口 理论 ,个 体感 知 到 信息 缺口 产生 厌恶 感 ， 为 缓解 这 种 情绪 ， 个 体 对 信 
息 (奖励 ) 产 生 淘 望 ， 即 产生 好 奇 动 机 。 基 于 当前 环境 、 过 往 经 验 ， 个 体 根据 当 前 
活动 状态 或 潜在 行为 (如 信息 寻求 ) 的 预期 结果 进行 控制 的 价值 (value of control) 
评估 , 即 评 估 接 下 来 的 行为 需要 施加 多 少 控制 和 如 何 施加 控制 ， 以 决定 是 否 发 起 
言 息 寻 求 。 信息 寻求 对 应 不 同 的 结果 : 信息 获取 成 功 , 好 奇 满 足 ; 信息 获取 失败 ， 
好 奇 未 满足 。 此 阶段 也 会 伴随 各 种 情绪 的 产生 (Di Leo et al, 2019; Vogl et al., 
2019)。 由 于 有 新 信息 的 输入 ， 个 体 的 状态 会 发 生 改变 ， 并 成 为 控制 价值 评估 的 
线索 ， 进 而 影响 新 一 轮 的 信息 寻求 行为 。 好 奇 满足 意味 着 信息 奖励 获得 ， 往 往 会 
增加 个 体 对 新 信息 的 期 望 价值 和 行为 有 效 性 的 估计 , 进而 强化 信息 寻求 行为 。 而 
言 息 的 进一步 整合 带 来 先 验 知识 的 扩展 , 扩展 的 先 验 知 识 使 个 体 更 易于 意识 到 新 
的 信息 缺口 ， 激 发 新 的 信息 寻求 行为 。 此 过 程 形 成 了 一 个 正 反 馈 循 环 ， 有 助 于 可 
持续 的 知识 获取 。 反 之 ， 信 息 获 取 失 败 ， 正 反馈 循环 就 此 打 断 。 需 要 注意 的 是 ， 
我 们 容易 把 好 奇 满 足 简单 地 理解 为 好 奇 任务 中 目标 信息 的 呈现 。 事实 上 , 在 真实 
情境 中 ， 信 息 寻 求 过 程 是 动态 的 ， 寻 求 结 果 也 是 动态 的 ， 所 有 缩小 或 扩大 信息 缺 
口 的 信息 都 会 引发 个 体 状 态 的 改变 ， 导 致 好 奇 的 满足 或 不 满足 。 

本 文 与 奖励 性 学 习 模 型 (Murayama et al，2019) 最 大 的 区 别 在 于 融入 了 
Shenhav 等 人 (2013, 2016) 的 “控制 的 期 望 价值 ”(expected value of control, EVC) 模 
型 。 之 所 以 做 此 融合 ， 是 因为 从 好 奇 动 机 的 产生 到 信息 寻求 行为 的 发 生 ， 符 合 一 
般 行 为 决策 的 规律 ， 遵 循 神经 经 济 学 (neuroeconomics; Rangel et al., 2008) 原 理 ， 
即 信息 寻求 行为 的 发 生 及 策略 的 选择 取决 于 一 系列 神经 生物 学 的 价值 计算 结果 
(Platt & Plassmann, 2014)。EVC 模型 对 这 种 基于 动机 和 奖励 的 行为 决策 过 程 进行 
了 概括 (图 1b)。 需 要 说 明 的 是 ，EVC 模型 中 的 控制 ， 也 叫 认 知 控制 (cognitive 
control), 指 的 是 在 一 些 非 “ 自 动 化 ”的 、 需 要 花费 时 间 并 付出 努力 才能 完成 的 任务 
中 ,协调 行为 使 其 和 目标 一 致 的 能 力 。 主 动 发 起 的 信息 寻求 就 是 一 种 需要 施加 控 
制 的 行为 。 在 EVC 模型 中 ， 背 侧 扣 带 回 (dorsal anterior cingulate cortex, d4ACC) 连 
接着 状态 评估 和 行为 调节 。 具 体 来 说 就 是 ， 系统 将 反映 当前 活动 状态 或 潜在 行为 
预期 结果 的 信号 传递 给 dACC，dACC 综合 预期 奖励 和 努力 成 本 等 信息 ， 计 算得 
到 EVC， 决 定 如 何 分 配 控 制 资 源 ， 并 将 计算 结果 输出 给 调节 系统 进行 控制 执行 
(Shenhav et al., 2013; Shenhav et al., 2016). 

另外 ， 在 整个 RL 过 程 中 ， 多 巴 胺 (dopamine，DA) 系 统 扮 演 着 重要 的 角色 。 
投射 问 不 同 脑 区 的 DA， 可 能 上 共有 不 同 的 作用 (图 1c)。 其 中 ， 主 要 由 腹 侧 被 盖 
(ventral tegmental area, VTA) 和 黑 质 (substantia nigra, SN) 腹 中 侧 发 出 ， 投 射 癌 伏 隔 
核 mucleus accumbens, NAcc; 位 于 腹 侧 纹 状 体 ,ventral striatum，VS) 和 前 扣 带 回 
(anterior cingulate cortex, ACC) 的 多 巴 胺 能 神经 元 (dopaminergic neurons, DAN), 
对 强化 物 的 效 价 进行 反应 ; 而 主要 从 SN 背 外 侧 和 外 侧 发 出 ， 投 射 癌 前 额 叶 
(prefrontal cortex, PFC) 的 DAN, 则 对 强化 物 的 突显 性 进行 反应 (Dayan & Niv, 2008; 
Matsumoto & Hikosaka, 2009; Ott & Nieder, 2019)。 因 此 ， 有 研究 者 认为 与 效 价 有 
关 的 DA 可 被 用 来 更 新 价值 表征 ， 实 现 RL; 而 与 突显 性 有 关 的 DA 则 预示 着 刺 
激 需 要 获得 的 注意 量 ， 参 与 调节 认 知 控制 (Ott & Nieder, 2019; Sutton & Barto, 
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2018). 

而 好 奇 的 一 个 重要 作用 一 一 促进 学 习 和 记忆 (Gruber et al., 2014; Kang et al., 
2009; Marvin & Shohamy, 2016)， 也 与 DA 系统 密切 相关 。 因 为 ， 参 与 学 习 和 记 
忆 的 关键 脑 区 海马 (hippocampus) 与 中 脑 VTA/SN 的 DAN 之 间 存 在 一 个 功能 回路 
(图 1d; Lisman & Grace, 2005). DA 在 海马 内 释放 ， 会 增强 长 时 程 增强 (long-term 
potentiation, LTP), mi LTP 是 记忆 巩固 的 关键 步骤 (Lisman & Grace, 2005). 


总 之 ， 静态 地 观察 好 奇 本 身 存 在 一 定 的 局 限 性 ,把 从 好 奇 发生 开 始 的 一 系列 
事件 联系 在 一 起 才能 更 好 地 理解 好 奇 的 本 质 和 作用 。 接 下 来 , 本文 将 分 别 对 该 模 
型 的 各 个 阶段 及 各 阶段 的 神经 生理 机 制 进行 具体 阐述 。 


(a) 好 奇 的 反馈 循环 过 程 


指示 RPE， 更 新 价值 表征 -RL 


- 
(d) 海马 -VTA/SN 回 路 PFC 指示 刺激 突显 性 - 认 知 控制 
Co) 中 脑 DA 系 统 
图 1 好 奇 的 反馈 循环 模型 及 其 神经 生理 机 制 。(a) 好 奇 的 反馈 循环 过 程 。 个 体感 知 到 信息 缺 
形成 认 知 剥 夺 , 引发 厌恶 情绪 ， 从 而 产生 对 信息 的 渴求 , 即 好 奇 动 机 。 系 统 对 当前 状态 ( 包 
括 好 奇 动 机 ) 进 行 评估 ， 得 到 EVC， 以 决定 是 否 值得 发 起 信息 寻求 行为 。 知 认 知 控制 的 收益 
大 于 代价 则 发 起 控制 ， 进 行 信息 寻求 。 信 息 寻 求 成 功 ， 好 奇 满 足 。 好 奇 满 足 产生 的 体验 重新 
成 为 输入 信息 ， 改 变 当前 状态 ， 进 而 影响 之 后 的 好 奇 动 机 产生 及 信息 寻求 发 起 。 最 后 ， 获 得 
的 信息 与 先 验 知识 发 生 整 合 ， 先 验 知 识 得 到 扩展 ,个 体 更 容易 意识 到 新 的 信息 缺口 ， 激 发 新 
的 信息 寻求 行为 。 此 过 程 形成 了 一 个 正 反 馈 循 环 ， 有 助 于 可 持续 的 知识 获取 。(b) 基 于 动机 
和 奖励 的 行为 决策 过 程 ， 此 图 参考 Shenhav 等 人 (2016) 的 EVC 模型 。 反 映 当 前 活动 状态 或 
潜在 行为 预期 结果 的 信号 传递 给 dACC，dACC 计算 EVC， 决 定 控制 资源 如 何 使 用 ， 并 将 计 
算 结果 输出 给 调节 系统 进行 认 知 控制 。(c) 中 脑 DA 系统 。SN/VTA 位 于 中 脑 ， 是 DA 释放 的 
起 源 (Ballard et al., 2011; Cervera et al., 2020; Frankle et al., 2006)。 其 中 ， 从 中 脑 发 出 投射 至 
NAcc( 属 于 VS X) ACC, MFC 等 区 域 的 DA 通常 反映 了 实际 接收 到 的 奖励 和 预期 奖励 之 
间 的 差异 ， 即 RPE. DAN 的 活动 与 效 价 有 关 ( 奖 励 使 DAN 活动 性 增加 ， 惩 罚 使 DAN 活动 
性 降低 )， 且 变化 快速 ， 因 此 可 被 用 来 更 新 价值 表征 ， 实 现 RL。 而 从 中 脑 投 射 向 PFC 的 DA 
与 效 价 无 关 , 传递 的 是 刺激 突显 性 信号 , 预示 着 刺激 需要 获得 更 多 注意 ， 因 此 对 认 知 控制 有 
促进 作用 。(d) 海 马 -VTA/SN 功能 回路 。 海 马 与 中 脑 YTA/SN 的 DAN 构成 了 一 个 功能 回路 。 
DA 在 海马 内 释放 ， 会 增强 LTP， 有 助 于 记忆 巩固 。 
缩写 : EVC- 控 制 的 期 望 价值 (expected value of control); OFC- 眶 额 皮 质 (orbitofrontal cortex); 
dACC- 背 侧 前 扣 带 回 (dorsal anterior cingulate cortex); LPFC- 外 侧 前 额 叶 皮 质 (lateral prefrontal 
cortex); MC- 运 动 皮 质 (motor cortex); LC- 蓝 斑 核 locus coeruleus); DA- 多 巴 胺 (dopamine 
system); VTA- 腹 侧 被 盖 (ventral tegmental area); SN- 黑 质 (substantia nigra); NAcc- 伏 隔 核 
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(nucleus accumbens); VS- 腹 侧 纹 状 体 (ventral striatum); MFC- 内 侧 前 额 叶 皮质 (medial 
prefrontal cortex); ACC- 前 扣 带 回 (anterior cingulate cortex); PFC- 前 额 叶 皮 质 (prefrontal 
cortex); RPE- 奖 励 预 测 偏差 (reward prediction error); RL- 强 化 学 习 (reinforcement learning) 


2.1 好 奇 发 生 阶段 

Loewenstein(1994) 的 信息 缺口 理论 认为 ， 好 奇 的 作用 与 其 他 驱动 力 类 似 ， 如 
饥饿 促使 人 们 进食 ， 而 好 奇 促 使 人 们 填补 “信息 缺口 ”。 少 量 信 息 或 冲突 信息 都 可 
以 成 为 一 剂 启动 剂 ， 驱 动 信 息 寻 求 行 为 。 通 常情 况 下 , 信息 缺口 与 个 体 的 先 验 知 
识 有 关 ， 当 前 信息 与 先 验 知识 的 差异 雇 定 了 缺口 的 大 小 。 当 探知 到 知识 缺口 时 ， 
人 们 吏 会 主动 发 起 信息 寻求 行为 ， 以 获取 知识 。 

也 就 是 说 , 信息 缺口 可 以 引起 好 奇 ， 先 验 知 识 决 定 了 信息 缺口 。 那 么 多 大 的 
信息 缺口 是 合适 的 呢 ?Berlyne, Hebb 等 人 (Berlyne, 1970; Hebb, 1955) 指 出 存在 一 
个 最 佳 的 信息 不 一 致 水 平 ， 并 称 其 为 “最 佳 唤醒 ”水 平 。 他 们 认为 , 不 太 熟 悉 也 不 
太 新 奇 的 刺激 才 会 诱发 好 奇 ， 极 度 的 不 一 致 导 致 的 是 恐惧 反应 而 不 是 探索 行为 。 
Kidd 等 人 (2012) 的 研究 也 发 现 ， 对 于 信息 含量 很 低 (高 度 可 预测 ) 或 信息 含量 很 高 
(高 度 令 人 人 惊讶) 的 事件 ， 婴 儿 移 开 视线 的 可 能 性 最 大 。 婴 儿 倾 向 于 将 注意 维持 在 
具有 中 等 信息 量 的 事件 上 。Kang 等 人 (2009) 在 成 人 身上 也 发 现 了 类 似 的 结果 ， 个 
体 对 冷 知 识 问题 答案 的 好 奇 与 对 答案 的 信心 之 间 的 关系 是 一 条 倒 U 型 曲线 ， 即 当 
被 试 对 答案 一 无 所 知 或 极度 自信 时 ,好奇 最 弱 ; 而 当 被 试 对 答案 模棱两可 时 ， 好 
奇 最 强 。 更 强 的 好 奇 动 机 意味 着 会 启动 更 多 的 注意 资源 投入 。 这 种 对 中 度 不 确定 
性 产生 最 大 好 奇 、 投 入 最 多 注意 的 策略 可 以 有 效 防止 人 们 在 过 于 可 预测 或 过 于 复 
杂 的 事件 上 浪费 认 知 资源 ， 从 而 帮助 他 们 最 大 限度 地 发 挥 学 习 潜 能 。 

参与 信息 缺口 探测 的 脑 区 主要 有 两 个 一 一 海 互 和 ACC( 黄 怠 等 , 2021)。 海 马 
在 新 记忆 形成 时 参与 了 新 信息 的 联结 , 在 长 时 记忆 提取 时 参与 了 对 已 存储 信息 的 
索引 ， 而 且 海 马 与 情景 记忆 的 建立 关系 密切 (Squire et al., 2007; Eichenbaum & 
Cohen, 2014)。 因 此 ， 海 马 对 新 的 或 意外 的 环境 信息 极为 敏感 。 这 些 信息 可 以 通 
过 激活 海马 引导 接 下 来 的 视觉 探索 (Liu et al., 2017; Voss et al., 2017)。 除 了 新 异 坏 
境 ， 认 知 冲突 也 是 信息 缺口 的 一 个 重要 体现 。 对 认 知 冲突 的 监控 则 与 ACC 有 关 。 
有 研究 者 认为 存在 一 个 冲突 监控 系统 , 用 来 监控 信息 处 理 中 的 冲突 发 生 , 目的 是 
基于 冲突 大 小 计算 需要 施加 的 控制 , 并 将 此 信息 传递 给 负责 控制 的 中 心 , 其 中 负 
责 冲 突 监控 的 脑 区 正 是 ACC(Botvinick et al., 2001; Shenhav et al., 2016)。 研 究 发 
现 ， 当 给 被 试 呈 现 模糊 图 片 (诱发 好 奇 的 材料 ) 时 ，ACC 的 活动 确实 有 所 增强 
(Jepma et al., 2012). 

另外 , 好 奇 作 为 动机 ， 有 具有 趋 避 两 面 性 ,好奇 动机 “ 趋 ” 的 是 信息 (奖励 ),“ 避 ” 
的 是 信息 缺口 带 来 的 负 性 情绪 。Berlyne(1957) 就 曾 指出 好 奇 是 一 种 令 人 厌恶 的 状 
态 。Loewenstein(1994) 认 为 意识 到 信息 缺口 会 带 来 一 种 剥夺 感 。Litman(2008) 提 
出 的 剥夺 型 好 奇 (deprivation type curiosity) 表 明 好 奇 有 可 能 是 不 被 满足 的 需求 状 
态 。 可 见 ， 好 奇 与 厌恶 情绪 相生 相伴 。 最 近 的 实证 研究 证 实 了 这 一 负 性 情绪 的 存 


在 ，van Lieshout，de Lange 等 人 (2021) 用 抽奖 任务 对 呈现 信息 的 不 确定 性 进行 了 


定量 操作 ， 结 果 发 现 不 确定 性 越 强 ， 产 生 的 好 奇 水 平 越 高 ， 但 愉悦 度 却 降低 了 。 
Jepma 等 人 (2012) 用 模糊 图 片 诱发 好 奇 ， 激 活 了 前 岛 叶 皮层 (anterior insular cortex, 
AIC)。 而 AIC 与 个 体 的 消极 唤醒 有 关 ( 如 疼痛 .厌恶 等 ; Shackman et al., 2011; Singer 
et al., 2009)， 说 明 好 奇 发 生 涉 及 一 种 类 似 厌 恶 的 情绪 状态 。 

2.2 信息 寻求 行为 的 决策 阶段 


=s 


首先 ,需要 说 明 的 是 , 信息 寻求 被 认为 是 典型 好 奇 诱发 行为 。 当 人 们 感到 好 
奇 ， 即 在 好 奇 动 机 的 驱使 下 ， 会 去 探索 、 提 问 和 操纵 有 趣 的 物体 (Kidd & Hayden, 
2015$)， 这 些 均 被 视 作 信息 寻求 。 但 好 奇 诱发 的 行为 不 只 是 信息 寻求 。 例 如 ， 当 
一 个 人 回避 剧 透 Rosenbaum & Johnson, 2015) 时 ， 这 种 回避 信息 的 行为 也 部 分 始 
于 好 奇 动 机 。 此 外 ， 信 息 寻 求 也 并 不 意味 着 总 是 伴随 外 显 行为 (Murayama et al., 
2019)。 例 如 ， 在 课堂 教育 情境 下 ， 知 识 可 能 是 由 外 部 提供 的 ， 学 生 只 是 被 动 接 
受 者 。 不过， 即便 在 这 种 情况 下 ， 学 生 对 信息 的 理解 依然 取决 于 他 对 信息 的 主动 
处 理 程度 。 也 就 是 说 , 学 生 仍 然 在 心理 上 进行 信息 搜寻 , 且 该 过 程 需 要 认 知 控制 。 
(1) ”信息 寻求 行为 的 决策 过 程 

从 好 奇 发 生 到 信息 寻求 具有 一 般 行为 决策 的 特点 和 内 在 机 制 (图 10) 信息 寻 
求 行为 是 否 发 出 、 怎 样 发 出 是 一 系列 价值 计算 的 结果 (Platt & Plassmann, 2014; 
Rangel et al., 2008). Shenhav 等 人 (2013, 2016) 将 这 种 价值 描述 为 EVC, 在 需要 认 
知 控制 的 任务 中 ，EVC 整合 了 以 下 信息 : 控制 过 程 的 预期 收益 ， 实 现 该 收益 需 
要 投入 的 控制 量 ， 以 及 认 知 努力 需要 付出 的 成 本 。 所 以 ，EVC 代表 着 控制 的 净 
价值 ， 用 于 决定 在 接 下 来 的 行为 中 控制 如 何 分 配 。EVC 的 估计 发 生 在 dACC 中 ， 
dACC 接收 来 自 杏仁 核 、AIC、OFC、 中 脑 等 结构 的 信号 输入 ， 这 些 信 号 反映 了 
生物 体 的 当前 状态 (如 当前 任务 需求 、 处 理 能 力 、 动 机 状态 等 ) 和 潜在 行为 结果 的 
价值 (同时 考虑 结果 发 生 的 可 能 性 和 预期 价值 )。 上 文 提 到 的 认 知 冲突 只 是 dACC 
处 理 的 众多 信和 号 之 一 (Shenhav et al., 2016). 

在 好 奇 相关 的 研究 中 , 研究 者 发 现 OFC 可 能 是 对 信息 价值 进行 编码 的 脑 区 。 
在 一 个 好 奇 交 易 任 务 (curiosity tradeoff task)", 研究 者 发 现 OFC 既 编码 了 赌博 的 
赌注 ， 也 编码 了 满足 好 奇 的 信息 价值 ， 这 些 代 表 价 值 高 低 的 信号 被 送 往 了 中 脑 
DA 系统 (Blanchard et al., 2015; Charpentier et al., 2018)。 但 对 信息 价值 的 编码 是 否 
与 自然 奖励 物 的 编码 一 致 ， 研 究 者 们 在 观点 上 仍 有 分 歧 (Cervera et al., 2020)。 一 
项 关于 物品 选择 任务 的 研究 可 以 很 好 地 反映 OFC 和 ACC 在 价值 编码 上 的 区 别 
(Shenhav & Buckner, 2014)。 当 两 个 物品 都 具有 高 价值 ， 被 试 必须 要 选择 其 中 之 
一 的 时 候 ， 相 较 于 两 个 低 价值 物品 或 价值 一 高 一 低 的 两 个 物品 ,被 试 的 焦虑 水 平 
最 高 。ACC 的 反应 与 焦虑 水 平一 致 ， 冲 突 越 大 ， 激 活 越 强 。 而 OFC 的 反应 只 与 
即将 选 到 的 物品 价值 有 关 ， 价 值 越 高 ， 激 活 越 强 。 可 见 ，OFC 编码 的 是 预期 的 
报酬 或 奖励 ， 而 ACC 反映 的 是 任务 需要 施加 的 控制 。 

当 dACC 计算 出 控制 资源 的 分 配方 案 后 , 计算 结果 会 输出 给 调节 系统 进行 控 
制 的 具体 执行 。 负 责 接 收 来 自 dACC 输出 信号 的 脑 区 主要 有 LPFC、 运 动 皮质 、 
纹 状 体 、LC 等 (Shenhav et al., 2016)。 

研究 表明 , 信息 缺口 激活 ACC 后 会 将 信号 传递 给 LPFC, 并 由 LPFC 决定 是 
否 发 起 探索 行为 (Gruber & Ranganath, 2019; Gruber & Fandakova, 2021) ,一 项 使 用 
冷 知识 问题 范式 的 神经 成 像 研究 发 现 , 与 低 好 奇 相 比 ， 高 好 奇 相关 的 冷 知识 问题 
对 LPFC 的 激活 更 强 ， 这 可 能 与 高 好 奇 问题 拥有 更 高 的 EVC 有 关 (Kang, et al., 
2009; Gruber et al., 2014; Ligneul et al., 2018)。 其 他 好 奇 研究 也 显示 ， 当 面 对 高 不 
确定 性 图 片 时 ，LPFC 活动 更 强 (Jepma et al，2012) 。 去 甲 肾上腺 素 能 系统 
(noradrenergic system) FARE FA AF ERA (norepinephrine, NE) 的 部 位 一 一 LC 也 
参与 了 好 奇 的 响应 (Gompf et al., 2010)。 面 对 不 可 预测 的 、 不 确定 的 刺激 时 表现 
出 的 瞳孔 扩张 反映 的 就 是 LC 的 活动 (Joshi et al., 2016; Payzan-LeNestour et al., 
2013)。 

值得 注意 的 是 , 信息 寻求 行为 通常 始 于 好 奇 , 但 好 奇 并 不 必然 会 引起 信息 寻 
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求 行为 ， 好 奇 只 是 信息 寻求 的 动机 之 一 。 有 时 候 “ 想 知道 ?不 意味 着 人 们 会 采取 行 
BH A”. M EVC 模型 可 以 看 出 ， 发 出 一 个 行为 是 一 系列 成 本 -收益 分 析 的 结 
果 。 鉴 于 好 奇 的 内 部 动机 特性 ， 满 足 好 奇 的 信息 本 身 就 具有 奖励 性 质 ， 无 须 附 加 
其 它 工具 性 价值 就 对 信息 寻求 有 驱动 作用 。 众 多 研究 也 都 支持 了 这 一 观点 ,为 了 
获得 满足 好 奇 动 机 的 信息 ， 人 们 甚至 愿意 付出 一 些 代 价 ( 如 货币 成 本 、 时 间 成 本 、 
电击 等 ; Bennett et al., 2016; Lau et al., 2020; Marvin & Shohamy, 2016)。 但 这 些 信 
恩 除 了 满足 好 奇 外 ， 可 能 还 具有 其 它 的 附加 价值 。 例如 ,信息 可 能 拥有 不 同 的 情 
绪 效 价 ， 对 信息 情绪 效 价 的 预期 也 会 影响 信息 寻求 行为 (Hertwig & Engel, 2016)。 
Charpentier 等 人 (2018) 的 研究 表明 ， 当 被 试 可 能 获得 的 信息 为 负 性 (有 金钱 损失 ) 
时 ， 他 们 的 信息 寻求 行为 会 减少 。 不 过 ， 也 有 研究 指出 为 了 满足 好 奇 ， 即 便 是 恐 
怖 图 片 依然 具有 奖励 性 质 ， 可 引起 信息 寻求 行为 (Oosterwijk et al., 2020). 

除了 信息 本 身 会 影响 信息 寻求 行为 的 价值 估计 外 , 获得 信息 的 可 能 性 也 是 一 
个 重要 的 影响 因素 。 人 们 发 起 信息 寻求 行为 的 决定 不 仅 取决 于 信息 携带 的 价值 ， 
还 取决 于 获得 信息 所 要 付出 的 代价 。 上 文 提 到 ， 人 们 愿意 为 了 获得 满足 好 奇 的 信 
息 而 付出 一 些 代价 ， 但 当代 价 变 大 时 ， 信 息 寻 求 的 可 能 性 便 有 所 降低 (Bennett et 
al., 2016)。 研 究 表明 ， 对 行为 有 效 性 的 评估 是 影响 行为 选择 与 执行 的 一 个 重要 因 
素 。 同 样 是 为 了 解雇 不 确定 性 ， 当 认为 行为 策略 有 效 时 ， 会 表现 出 更 多 的 探索 行 
为 (Jasko et al., 2015; Sankaran et al., 2017)。 如 果 一 个 人 不 相信 自己 有 足够 的 能 
获得 信息 或 者 行为 成 本 太 高 ， 他 /她 就 会 放弃 信息 寻求 行为 (Noordewier & van 
Dijk, 2016; Silvia, 2005)。 而 如 果 一 个 人 在 探索 后 没有 获得 满足 好 奇 动 机 的 有 效 信 
息 ， 那 么 他 /她 对 自己 获得 目标 信息 的 信念 就 会 降低 ， 最 终 导致 没 有 动力 再 次 启 
动 新 的 信息 寻求 行为 (Tanaka & Murayama, 2014)。 同 时 ， 当 他 /她 通过 探索 获得 有 
效 信息 并 转化 成 知识 时 ， 伴 随 知识 获得 ， 他 /她 的 主观 能 力 和 技能 也 在 提高 。 
此 ， 知 识 和 主观 能 力 随 着 时 间 的 推移 会 共同 发 展 ， 二 者 在 我 们 的 学 习 系 统 中 可 能 
无 法 区 分 。 

(2) 多巴胺 在 好 奇 驱动 的 强化 学 习 中 的 作用 

除了 ACC, DA 系统 被 认为 在 动机 和 认 知 控制 之 间 的 相互 作用 中 发 挥 关 键 作 
用 (Ballard et al., 2011; Berke, 2018; Bromberg-Martin et al., 2010). M SN/VTA 发 出 
的 DAN 投射 向 不 同 的 脑 区 ， 并 且 表 现 出 一 些 功能 上 的 差异 (图 1c)。 主 要 从 VTA 
和 SN 腹 中 侧 发 出 ， 投 射 向 NAcc 和 ACC 的 DAN， 对 强化 物 的 效 价 进行 反应 ; 
而 主要 从 SN BIMMAH, BEAT] PFC 的 DAN， 则 对 强化 物 的 突显 程度 进行 反 
应 (Dayan & Niv, 2008; Matsumoto & Hikosaka, 2009; Ott & Nieder, 2019)。 因 此 ， 
有 研究 者 认为 与 效 价 有 关 的 DA 主要 被 用 来 更 新 价值 表征 ， 实 现 RL; 而 与 突显 
性 有 关 的 DA 则 预示 着 刺激 需要 获得 的 注意 量 , 参与 调节 认 知 控制 (Ott & Nieder, 
2019; Sutton & Barto, 2018). 

Schultz 等 人 (1997) 最 先 提出 DA 在 RL 中 有 重要 作用 。Schultz 认 为 DAN 的 放电 
活动 反映 的 是 实际 获得 奖励 和 预期 奖励 之 差 ， 即 奖励 预测 偏差 (reward prediction 
error, RPE)， 而 不 是 反映 奖励 本 身 的 大 小 。 研 究 发 现 ，DAN 的 反应 会 随 着 学 习 的 
展开 而 发 生变 化 ，RPE 也 随 之 快速 变化 ， 这 使 得 RPE 信 号 可 用 于 实时 更 新 当前 状 
态 和 潜在 行为 结果 的 价值 表征 ， 进 而 影响 后 续 的 行为 决策 (Berke, 2018; Dayan & 
Niv, 2008; Hamid et al., 2016). 

关于 好 奇 会 激活 中 脑 DA 系 统 的 证 据 有 很 多 。 几 项 功能 磁 共 振 成 像 研究 报道 
了 在 好 奇 诱 发 后 的 预期 形成 阶段 (满足 好 奇 的 信息 呈现 之 前 的 等 待 阶段 )， 纹 状 体 
区 域 (striatum) 的 活动 有 所 增强 ， 这 些 区 域 的 激活 受到 SN/VTA 释 放 的 DA 的 影响 


(Gruber et al., 2014; Kang et al., 2009; Lau et al., 2020; Oosterwijk et al., 2020). 在 冷 
知识 问题 任务 中 , 高 好 奇 的 冷 知识 问题 会 引起 更 强 的 中 脑 DAN 活 动 (Gruber et al., 
2014; Kang et al., 2009)。 而 另 一 项 与 好 奇 相关 的 研究 显示 ， 当 可 能 获得 的 未 来 信 
息 更 为 有 利 时 ， 被 试 对 这 些 信息 的 淘 望 越 强 ，SN/VTA 和 VS 的 激活 也 更 强 
(Charpentier et al., 2018)。 可 见 ， 昌 然 与 一 级 奖励 (水 或 食物 等 ) 不 同 ， 信 息 是 一 种 
间接 的 奖励 , 但 DA 对 它们 的 反应 却 是 类 似 的 。 说 明 DA 有 反映 的 是 奖励 背后 更 为 抽 
象 的 东西 ， 比 如 奖励 物 提供 的 价值 (Berke, 2018; Matsumoto & Hikosaka, 2009). 
也 就 是 说 ， 对 于 皮层 下 的 奖励 结构 来 说 , 信息 的 价值 与 其 他 事物 的 价值 并 无 本 质 
区 别 。 

另外 ，DA 还 参与 了 另外 一 个 重要 的 过 程 认 知 控制 (Ott & Nieder 2019; 
Sutton & Barto, 2018). Ott 和 Nieder(2019) 总 结 了 DA 在 认 知 控制 中 的 三 个 主要 作 
FA: (1) 控 制 感觉 输入 ， 使 得 与 潜在 行为 相关 的 刺激 得 到 加 工 ; (2) 维 持 和 操纵 工 
作 记 忆 内 容 ; (3) 将 这 些 信息 传递 到 准备 行为 反应 的 运动 前 区 。 一 些 研究 者 认为 ， 
动机 和 认 知 控制 之 间 的 相互 作用 与 从 VTA 到 LPFC 的 DAN 投射 有 关 。 例如 , 研 
究 发 现 ,LPFC 中 的 DA 水 平 与 认 知 控制 和 注意 有 关 (Anderson, 2016; Durstewitz & 
Seamans, 2008)。 不 过 ， 也 有 证 据 显示 ，LPFC 通过 影响 VTA 对 预期 奖励 的 活动 
来 启动 动机 行为 Ballard et al., 2011)。 即 ， 认 为 LPFC 通过 影响 ACC 和 VTA 来 
形成 动机 性 的 认 知 控制 。Hippmann 等 人 (2021) 的 动态 因果 模型 (dynamic causal 
modeling) 分 析 更 支持 前 一 种 观点 。 研究 中 ， 当 对 控制 的 需求 较 高 时 , VTA 对 PFC 
产生 因果 性 影响 。 想 要 确定 DA 如 何 参 与 认 知 控制 ， 仍 需要 更 多 证 据 加 以 证 实 。 
另外 ， 虽 然 好 奇 驱 动 的 信息 寻求 行为 也 需要 认 知 控制 的 参与 ， 需 要 DA 的 投入 ， 
但 尚 无 以 好 奇 为 背景 的 相关 研究 。 

(3) 好奇 对 学 习 与 记忆 的 促进 

在 驱动 信息 寻求 之 外 ， 好 奇 最 重要 的 一 个 作用 是 能 促进 个 体 的 学 习 和 记忆 。 
长 期 来 看 ， 特 质 性 好 奇 与 学 业 成 就 之 间 有 显著 的 正 相 关 ， 这 个 关系 适用 于 从 学 前 
到 青年 的 所 有 阶段 (Froiland et al., 2015; Shah et al., 2018; Tucker-Drob et al., 2016; 
Oudeyer et al., 2016)。 就 状态 好 奇 而 言 ， 与 高 好 奇 相 关 的 信息 在 实验 后 的 一 天 和 
至 少 两 周 内 仍 能 被 更 好 地 记 住 (Gruber et al., 2014; Kang et al., 2009; Marvin & 
Shohamy, 2016)。 可 见 ， 好 奇 引 起 的 记忆 增强 不 会 在 短 时 间 内 消退 。 并 且 ， 好 奇 
的 这 一 记忆 增强 效应 对 儿童 、. 青 少年、 年 轻 人 和 老年 人 都 适用 (Fastrich et al., 2018; 
McGillivray et al., 201$)。 此 外 , 好 奇 状 态 除 了 对 满足 好 奇 的 目标 信息 有 增强 效果 ， 
对 该 状态 下 遇 到 的 其 它 偶然 性 信息 也 有 增强 效果 。Gruber 等 人 (2014) 以 成 年 人 为 
被 试 ， 在 冷 知识 问题 后 的 答案 预期 阶段 (尤其 是 该 阶段 的 早期 ) 插 入 中 性 面孔 ， 高 
好 奇 被 试 对 这 些 侦 然 出 现 的 面孔 也 会 表现 出 更 好 的 记忆 效果 。 儿童 和 青少年 也 会 
表现 出 对 好 奇 状 态 下 非 目标 信息 的 记忆 增强 (Fandakoval & Gruber, 2021)。 

好 奇 为 什么 能 够 促进 学 习 与 记忆 ? 这 可 能 与 海马 的 活动 增强 有 关 。Gruber 
和 Ranganath(2019) 的 PACE 模型 认为 好 奇 通过 刺激 DAN 增强 了 海马 依赖 的 记忆 
编码 和 记忆 巩固 。 海 马 是 学 习 、 记 忆 发 生 的 关键 脑 区 ， 海 马 中 的 LTP 过 程 是 记 
忆 巩 固 的 关键 步骤 。 研 究 者 在 动物 研究 中 发 现 ， 暴 露 于 新 环境 有 利于 LTP 的 增 
强 ， 而 该 过 程 是 由 DA 和 NE 系统 介 导 的 (Li et al., 2003; Li et al., 2013)。 另 外 ， 
NE(Straube et al., 2003) 和 DA 活动 (Moncada & Viola, 2007; Lisman et al., 2011) 还 
促进 了 从 早期 LTP 到 持续 LTP 的 过 渡 。 

该 过 程 在 人 类 研究 中 也 得 到 了 证 实 。 有 关外 部 动机 和 记忆 关系 的 文献 表明 ， 
动机 状态 本 身 可 以 促进 学 习 和 记忆 (Shohamy & Adcock, 2010)。 因 为 ，NAcc 和 


SN/VTA 复合 体 与 海马 构成 了 一 个 功能 性 回路 (Lisman & Grace, 2005). WREE 
到 ， 在 预示 高 奖励 (外 部 奖励 ， 如 金钱 ) 的 线索 出 现时 ，NAcc 和 SN/VTA 以 及 海 
马 的 激活 都 增加 了 ， 对 相关 事件 的 记忆 也 得 到 了 增强 (Lisman & Grace, 2005; 
Lisman et al., 2011; Shohamy & Adcock, 2010)。 高 奖励 条 件 下 SN/VTA 和 海马 功 
能 联结 的 增强 ， 不 仅 发 生 在 记忆 编码 阶段 (Murty & Adcock, 2014; Wolosin et al., 
2012)， 还 发 生 在 学 习 后 的 记忆 巩固 阶段 (Gruber et al., 2016). Gruber 等 人 (2016) 
BN, 在 学 习 后 的 休息 期 间 ， 高 奖励 情境 对 应 的 海马 表征 会 优先 被 再 次 激活 ， 这 
意味 着 在 高 奖励 情境 中 学 习 的 项 目 会 优先 得 到 巩固 。 

以 上 是 外 部 动机 强化 学 习 的 作用 机 制 , 好 奇 作 为 内 部 动机 的 作用 机 制 与 其 相 
似 ， 只 不 过 奖励 换 成 了 信息 本 身 。 研 究 发 现 ， 呈 现 高 好 奇 问题 和 低 好 奇 问题 时 右 
侧 海 马 体 和 双 侧 NAcc 的 激活 差异 预测 了 高 好 奇 问题 答案 和 低 好 奇 问题 答案 的 记 
忆 差 别 (Gruber et al., 2014)。 而 答案 呈现 时 这 些 脑 区 的 活动 却 不 能 对 好 奇 相 关 信 
息 的 记忆 进行 预测 。 这 一 结果 表明 在 高 好 奇 状 态 下 ,对 未 来 信息 产生 预期 时 分 泌 
的 DA 刺激 了 NAcc 和 海马 ， 进 而 促进 了 对 即将 到 来 信息 的 学 习 。 研究 还 发 现 如 
果 学 习 是 被 好 奇 驱动 的 , 额外 再 附加 外 部 动机 是 不 必要 旦 无 效 的 。 这 也 是 为 什么 
在 一 些 情况 下 ， 其 它 外 部 奖励 反而 会 降低 好 奇 带 来 的 促进 作用 (Murayama et al., 
2010)。 

除了 SN/VTA- 海 马 功 能 联结 能 增强 学 习 过 程 ， 好 奇 还 会 通过 影响 学 习 过 程 
中 的 注意 促进 学 习 。 研 究 表明 ，DA 会 引导 个 体 对 指向 过 去 或 未 来 奖励 的 刺激 产 
生 即 时 的 注意 偏向 (Anderson, 2016)。 一 项 眼 动 研究 发 现在 好 奇 情 境 中 出 现 了 类 似 
的 注意 偏 问 , 高 好 奇 状态 下 , 被 试 对 即将 呈现 冷 知识 问题 答案 的 位 置 会 投 以 更 多 
关注 ， 即 产生 预期 注视 (Baranes et al., 2015)。 而 高 好 奇 对 注意 力 的 改变 与 注意 网 
络 的 激活 有 关 , 好 奇 或 者 说 好 奇 引起 的 DAN 的 活动 改变 了 额 叶 和 顶 叶 区 域 (与 注 
意 有 关 ) 的 激活 状态 (Jepma et al., 2012). 

男 一 个 与 学 习 增 强 有 关 的 系统 是 NE 系统 。 瞳 孔 大 小 的 改变 反映 了 NE 系统 
的 活动 情况 ， 而 对 好 奇 对 象 的 瞳孔 扩大 程度 可 以 正 向 预测 学 习 效 率 (Nassar et al., 
2012)。 另 外 ，LC 活动 与 个 体 的 情绪 唤起 状态 有 关 ， 它 对 调节 海马 功能 、 影 响 学 
习 过 程 也 有 作用 (Mather et al., 2016; Sakaki et al., 2014). 

总 之 ， 好 奇 状态 下 ， 在 DA 和 NE 系统 的 影响 下 ， 海 马 的 活动 性 增加 ， 这 不 
仅 帮 助人 们 记 住 了 他 们 感到 好 奇 的 事情 ， 还 帮助 他 们 记 住 了 该 状态 下 (好 奇 发 生 
后 ) 出 现 的 其 它 信 息 。 

2.3 好 奇 满足 阶段 

在 日 常生 活 中 个 体 采 取 的 每 一 个 行动 都 有 其 潜在 的 结果 ,要么 是 积极 的 ， 要 
么 是 消极 的 。 这 些 结果 在 很 大 程度 上 塑造 了 我 们 未 来 的 行为 ,并 激发 出 个 体 为 获 
得 积极 结果 而 做 出 决定 的 动机 。 好 奇 驱动 的 信息 寻求 行为 也 是 如 此 , 需要 一 个 积 
极 的 结果 一 一 好 奇 满 足 ， 作 为 反馈 以 巩固 这 些 行为 和 动机 。 好 奇 满 足 才能 使 好 奇 
动机 驱动 的 RL 得 以 完成 。 

在 广义 的 RL 模型 中 , 智能 体 (agent) 的 学 习 过 程 极度 依赖 其 自身 经 历 ( 图 2a)。 
智能 体 发 出 一 个 动作 作用 于 环境 , 环境 状态 发 生 改 变 的 同时 , 产生 了 一 个 强化 信 
号 (奖励 或 惩 昼 ) 反 馈 给 智能 体 ， 智 能 体 根据 当前 的 环境 状态 和 反馈 的 强化 信号 决 
定 下 一 个 动作 的 发 出 策略 , 原则 是 使 奖励 最 大 化 。 选择 的 动作 又 会 影响 下 一 时 刻 
的 状态 和 强化 信号 ， 如 此 往复 (Sutton & Barto, 2018)。 按 照 Gershman 和 Uchida 
(2019) 的 解读 ， 生 物体 的 RL 是 贝 叶 斯 式 的 ， 涉 及 三 个 关键 成 分 : 状态 (state)、 价 
值 (value) 和 策略 (policy)。 首 先 ， 状 态 指 生 物体 当前 占有 的 环境 状态 ， 如 时 间 、 地 


点 SO alee 从 感知 角度 讲 “ 生 物体 并 不 能 获得 当前 所 处 状态 的 完整 信息 ， 
是 只 能 接收 感官 数据 提供 的 关于 当前 状态 的 模糊 信息 。” 生 物体 实际 获得 的 是 
Me et 的 信念 状态 (belief state), 即 利用 感官 数据 的 概率 分 布 (P(x))、 
潜在 真实 状态 的 先 验 概率 (P(s)) 以 及 似 然 估计 值 (真实 环境 状态 中 得 到 当前 感官 
数据 的 条 件 概率 P(x|s)) 计 算得 到 的 后 验 概 率 (P(s|x)), 是 对 过 去 所 有 观察 历史 的 最 
优 估 计 。 其 次 ,价值 是 根据 当前 状态 计算 出 来 的 未 来 奖励 预期 。 事 实 上 ,信念 状 
态 才 是 奖励 预测 的 关键 自 变 量 ， 也 就 是 说 价值 是 个 关于 信念 状态 的 函数 。“ 关 
于 奖励 获得 的 价值 函数 的 参数 是 通过 感受 不 同 状 态 下 的 奖励 经 验 逐 渐 确 定 的 ” 
(图 2b)。 第 三 ， 策 略 是 在 当前 状态 下 采取 何 种 行动 的 决定 。“ 存 在 一 个 从 状态 到 
策略 的 映射 ， 该 映射 受到 习 得 价值 的 调 广 。 ”由 于 最 优 策略 通常 是 未 知 的 ， 生 物 
体 必 须 在 “利用 ”奖励 确定 的 行为 和 “探索 ”可 能 有 更 好 奖励 的 行为 之 间 进 行 权 
衡 。Gershman 和 Uchida (2019) 认 为 “这 三 种 不 同形 式 的 不 确定 性 (与 状态 、 价 值 
和 策略 相关 ) 在 DA 的 调节 和 被 调节 中 扮演 着 核心 角色 。” 在 贝 叶 斯 RL 框架 下 
“状态 不 确定 性 通过 信念 状态 的 概率 分 布 影响 DA 系统 ” 信念 状态 的 计算 可 能 
发 生 在 内 侧 前 额 叶 (medial prefrontal cortex, MPFC). “ 价值 不 确定 性 通过 价值 函数 
参数 的 概率 分 布 影响 DA 系统 , DA 通过 报告 RPE 又 反 过 来 推动 价值 函数 参数 的 
更 新 ” 价值 函数 形成 主要 涉及 的 脑 区 是 纹 状 体 。 一 篇 关于 RL 的 元 分 析 研 究 也 
指出 ，VS 是 参与 众多 RL 的 关键 皮层 下 结构 (Garrison et al., 2013)。 最 后 ,“ 策 略 
不 确定 性 通过 生物 体 行 为 的 概率 分 布 影响 DA 系统 ” PK IRS ASE EAH, 
两 个 调控 DA 水 平 的 蛋白 质 COMT 和 DARPP-32 参与 了 定向 探索 和 随机 探索 
(Frank et al., 2009; Humphries et al., 2012)。 贝 叶 斯 RL 框架 极 大 地 丰富 了 传统 RPE 
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Cb) 贝 叶 斯 框架 下 的 强化 学 习 

图 2 强化 学 习 模型 。(a) 广 义 的 强化 学 习 过 程 。 智 能 体 发 出 动作 改变 环境 ， 环 境 一 方面 改变 
了 对 智能 体 的 状态 输入 ， 一 方面 给 智能 体 提 供 一 个 强化 信号 (奖励 或 惩罚 )， 影 响 智能 体 接 下 
来 的 动作 。 如 此 循环 ， 在 奖励 最 大 化 的 原则 下 不 断 调 整 智能 体 的 行动 策略 。(b) 贝 叶 斯 框架 
下 的 强化 学 习 ( 此 图 参考 Gershman & Uchida, 2019)。 由 于 不 确定 性 的 存在 ， 生 物体 实际 获得 
的 是 基于 贝 叶 斯 规则 得 到 的 信念 状态 ， 即 利用 感官 数据 的 概率 分 布 (P(x))、 潜 在 真实 状态 的 
先 验 概率 (P(s)) 以 及 似 然 估计 值 (真实 环境 状态 中 得 到 当前 感官 数据 的 条 件 概率 P(x|s)) 计 算得 
到 的 后 验 概率 (P(s|lx))。 基 于 信念 状态 形成 的 关于 未 来 奖励 的 价值 函数 在 RPE 的 变化 中 不 断 
调整 函数 的 参数 。 


该 模型 同样 适用 于 从 好 奇 发 生 到 好 奇 满足 的 RL 过 程 。 以 与 目标 信息 的 距离 


为 例 , 个体 感知 到 的 与 目标 信息 的 距离 ， 即 信念 状态 ， 是 基于 当前 掌握 信息 和 过 
往 经 验 形成 的 估计 ， 并 不 完全 等 同 于 当前 环境 与 目标 信息 的 真实 距离 。 该 估计 值 
决定 着 目标 信息 预期 价值 .个 体感 知 的 与 目标 信息 的 距离 随 着 信息 寻求 的 展开 不 
断 变 化 ， 目 标 信息 的 预期 价值 也 随 之 动态 改变 。 当 实际 获得 的 信息 价值 高 于 其 预 
期 价值 ， 即 RPE 为 正 时 ， 预 示 着 可 以 对 行为 的 预期 价值 进行 上 调 ， 从 而 增加 后 
续 好 奇 发 生 和 信息 寻求 的 可 能 性 。Litman 等 人 (2005) 就 发 现 ， 越 是 接近 答案 
(feeling of knowing) 被 试 就 越 是 好 奇 ，VS 激活 也 越 强 。 

Jepma 等 人 (2012) 的 知觉 好 奇 和 Ligneul 等 人 (2018) 的 知识 好 奇 研究 都 表明 , 在 
好 奇 满 足 阶段 (分 别 对 应 图 片 模糊 性 消除 和 冷 知 识 问题 解答 )VS 会 产生 更 强 的 神 
经 活动 。 这 一 结果 与 Gruber 等 人 (2014) 发 现 的 答案 预期 阶段 而 非 好 奇 满足 阶段 出 
现 纹 状 体 激活 相 矛 盾 。 之 所 以 出 现 这 样 的 差异 , 与 不 同 研究 间 的 任务 设计 差异 有 
关 (Gruber et al., 2019)。Jepma 等 人 (2012) 和 Ligneul 等 人 (2018) 的 研究 中 ， 满 足 好 
奇 的 信息 并 不 一 定 每 次 都 出 现 ， 由 于 常常 得 不 到 满足 ,对 目标 信息 的 预期 价值 估 
计 就 会 降低 , 而 当 意 外 获得 目标 信息 时 , 就 会 出 现 一 个 明显 正 向 的 RPE。 而 Gruber 
等 人 (2014) 的 冷 知识 问题 的 答案 总 是 会 出 现 ， 加 上 冷 知识 问题 本 身 比较 枯燥 ， 使 
得 冷 知识 问题 答案 提供 的 实际 价值 和 答案 的 预期 价值 都 比较 稳定 , 导致 答案 呈现 
时 的 RPE 不 会 有 太 大 的 变化 ， 而 这 可 能 会 削弱 好 奇 动 机 。 

可 见 ， 对 于 信息 寻求 行为 的 强化 来 说 ， 简 单 的 好 奇 满足 可 能 还 不 够 ,超出 预 
期 价值 的 信息 也 很 重要 。Marvin 和 Shohamy(2016) 用 “信息 预测 偏差 ”(information 
prediction errors) 表 示 新 信息 的 实际 回报 价值 与 新 信息 的 期 望 回 报价 值 之 差 。 如 果 
获得 的 信息 是 意外 的 , 则 信息 预测 偏差 为 正 , 个 体会 调 高 未 来 新 信息 的 预期 回报 
价值 。 有 研究 表明 ， 当 新 知识 与 期 望 不 一 致 时 ， 信 息 寻 求 行 为 会 增加 (Vogl et al., 
2019)。 另 一 方面 ， 如 果 新 信息 没有 超出 预期 ， 人 们 往往 感到 失望 ， 信 息 价值 会 
被 调 低 。 

前 文 提 到 , 一些 研 究 者 认为 信息 缺口 引起 厌恶 情绪 ， 即 好 奇 发 生 伴随 着 一 个 
负 性 情绪 (Berlyne, 1957; Loewenstein, 1994)。 也 有 一 些 研究 者 认为 好 奇 可 能 伴随 
着 积极 的 情绪 (Grossnickle, 2016; Litman, 2008)。 这 种 理解 上 的 差异 很 可 能 是 因为 
研究 者 们 关注 的 不 是 同一 个 情绪 过 程 。 当 以 过 程 观 看 待 好 奇 的 发 生发 展 时 ， 就 会 
发 现 不 同 阶段 引发 的 情绪 是 在 不 断 变化 的 。 好 奇 发 生 时 产生 情绪 ， 好 奇 满足 后 也 
会 伴随 情绪 。 在 好 奇 满足 阶段 ， 可 能 会 产生 诸如 愉悦 (好 奇 满 足 )、 吃 惊 (目标 信息 
价值 超出 预期 )、 失 望 (目标 信息 价值 达 不 到 预期 )、 无 助 (信息 寻求 失败 ) 等 情绪 (Di 
Leo et al., 2019; Vogl et al., 2019)。 由 于 研究 中 对 好 奇 的 界定 不 清晰 ， 情 绪 评 估 的 
阶段 不 统一 ， 才 会 出 现 对 好 奇 情绪 认识 的 分 歧 。 

2.4 信息 整合 阶段 

至 此 ， 好 奇 的 反馈 循环 还 未 真正 结束 。 目 标 信 息 获 得 后 ， 还 需要 对 它 进行 进 
一 步 的 加 工 。 如 果 它 最 终 被 纳入 原 有 的 知识 结构 ， 就 会 更 新 先 验 知识 库 。 信 息 缺 
口 的 形成 ， 直 接 源 于 当前 信息 和 先 验 知识 的 差距 。 而 先 验 知识 库 的 更 新 ， 会 更 容 
易 产 生 新 问题 、 形 成 新 的 信息 缺口 ， 诱 发 出 新 的 好 奇 ， 进 而 启动 新 一 轮 的 循环 。 
Lydon-Staley 等 人 (2021) 发 现 高 剥夺 型 好 奇 者 构建 的 知识 网 络 更 加 紧密 ， 在 信息 
寻求 中 会 更 多 的 返回 之 前 查看 过 的 主题 信息 。 

Murayama(2019) 总 结 了 知识 获得 促进 进一步 信息 寻求 的 三 条 路 径 : 首先 ， 如 
上 所 述 ， 知 识 获得 使 个 体 更 能 意识 到 先前 意识 不 到 的 “信息 缺口 ”。 这 是 因为 扩充 
的 知识 网 络 使 更 多 的 知识 扩展 空间 显露 了 出 来 Loewenstein，1994)。 意 识 到 知识 
缺口 就 能 促进 好 奇 发 生 并 进一步 引导 知识 获取 行为 。 其 次 ， 获 得 信息 的 奖励 感 会 


增加 新 信息 的 预期 奖励 价值 ， 累 积 的 知识 还 会 让 个 体 意识 到 相关 主题 的 重要 性 ， 
这 都 会 让 个 体 在 评估 阶段 给 新 信息 赋予 更 高 的 价值 。 最 后 , 除了 主题 相关 信息 的 
价值 会 被 上 调 外 , 个 体 对 获取 信息 的 能 力 感知 也 会 提高 ， 从 而 增加 对 信息 寻求 行 
为 的 价值 估计 。 

不 过 , 在 知识 获得 后 ， 无 论 在 实验 研究 还 是 在 真实 学 习 情 境 中 ， 都 可 能 出 现 
对 新 信息 缺口 感知 的 钝 化 。 即 个 体 没 能 发 现 更 多 的 信息 缺口 , 甚至 终止 学 习 任务 ， 
因为 他 们 主观 上 觉得 自己 已 经 对 该 主题 有 了 完全 的 了 解 。 实 验 中 出 现 这 种 情况 多 
半 是 因为 诱发 材料 (如 冷 知识 ) 通 常 与 先 验 知识 没有 太 多 关联 ， 实 用 性 太 低 ， 在 答 
案 获取 过 程 中 容易 引起 被 试 的 殿 足 情绪 (Marvin & Shohamy, 2016; Murayama et 
al.,2019)。 真 实学 习 环 境 中 的 问题 往往 是 ， 学 生 常常 错误 地 认为 自己 已 经 掌握 学 
习 内 容 , 但 实际 上 并 没有 。 如 前 文 所 述 , 个体 的 感知 状态 和 真实 状态 之 间 是 有 差 
距 的 (Gershman & Uchida, 2019)。 相 关 研 究 表 明 ， 学 习 者 对 自己 掌握 的 学 习 材 料 
的 判断 常 是 不 准确 且 过 度 乐 观 的 ， 他 们 经 常 过 早 地 终止 了 自己 的 学 习 行 为 
(Murayama et al., 2016). 

总 的 来 说 ,知识 的 获取 与 整合 会 增强 未 来 的 好 奇 动 机 ， 驱 动 更 多 的 信息 寻求 
行为 ,进而 使 知识 获取 过 程 具有 可 持续 性 。 在 奖励 系统 的 作用 下 ， 从 好 奇 发 生 到 
好 奇 满足 ， 到 真正 的 信息 整合 ， 再 回 到 新 一 轮 的 好 奇 发 生 ， 形 成 了 一 个 正 反 馈 循 
环 。 而 稳定 的 好 奇特 质 正 是 这 种 短暂 好 奇 体验 重复 发 生 并 最 终 固化 的 结果 (Fayn 
et al., 2019; Lydon-Staley et al., 2021). 

3 好 奇 在 个 体 生命 周期 中 的 变化 与 发 展 

好 奇 反 馈 循环 模型 中 从 好 奇 发 生 到 好 奇 满 足 , 展现 的 是 短暂 性 的 好 奇 变 化 发 
展 的 一 个 小 循环 。 事 实 上 ， 好 奇 的 变化 发 展 谍 入 在 一 个 更 大 的 动态 过 程 ， 即 个 体 
的 出 生 、 成 长 和 衰老 中 。 

3.1 好 奇 随 年 龄 的 发 展 与 分 化 

大 量 研究 表明 , 婴 幼 儿 会 通过 系统 性 地 探索 环境 以 减少 不 确定 性 并 填补 信息 
缺口 , 可见 在 好 奇 的 发 生 和 表现 上 婴 幼 儿 与 成 人 并 无 显著 区 别 (Begus et al., 2016; 
Leckey et al., 2020). 

但 引发 好 奇 的 刺激 和 好 奇 产生 的 影响 会 随 年 龄 的 增长 而 变化 。 引起 不 同年 龄 
个 体 好 奇 的 事物 是 不 同 的， 婴儿 喜欢 探索 视觉 上 更 新 奇 的 物体 ,而 年 幼 的 儿童 更 
喜欢 探索 功能 上 不 清楚 的 事物 (Kidd & Hayden, 2015; Schulz, 2012)。2021 年 ， 
Fandakova 和 Gruber 用 冷 知识 范式 , 研究 了 在 10~14 岁 被 试 中 , 好 奇 是 如 何 影响 
记忆 的 。 结 果 发 现 ， 个 体 越 是 好 奇 ， 对 知识 的 记忆 也 就 越 好 。 而 相 比 于 10~12 
岁 的 儿童 ，12~14 岁 的 青少年 对 冷 知 识 答案 表现 出 更 好 的 记忆 力 ， 这 一 结果 很 大 
程度 上 与 青少年 对 目标 信息 的 价值 预期 有 关 , 他 们 觉得 冷 知识 问题 比 预期 的 更 有 
趣 (Fandakova & Gruber, 2021)。 也 有 可 能 是 因为 青少年 的 先 验 知识 更 多 ， 更 容易 
与 新 信息 建立 联结 。 

好 奇 的 这 些 年 龄 特点 可 能 与 脑 的 发 育 有 关 。 与 冲突 监测 相关 的 ACC 在 好 奇 
发 生 中 扮演 着 重要 角色 ， 从 婴儿 到 青春 期 ，ACC 都 在 持续 的 发 育成 熟 。 具 体 表 
现 有 ， 与 认 知 冲突 监测 和 处 理 相 关 的 脑 电 成 分 一 一 错误 相关 负 波 (ERN) 的 振幅 在 
成 年 之 前 一 直 都 在 随 着 年 龄 的 增长 而 增加 。Fandakova 等 人 (2018) 还 发 现 ，12 岁 
的 儿童 在 面 对 不 确定 性 的 记忆 信息 时 会 激活 ACC 和 AIC。 但 只 有 10~12 岁 的 孩 
子 会 在 报告 不 确定 性 时 激活 LPFC。 进 一 步 分 析 表 明 ，10 岁 时 与 认 知 冲突 相关 的 
脑 区 激活 更 强 的 孩子 (尤其 是 AIC), Æ 1.5 年 后 的 不 确定 性 评估 中 PFC 的 激活 会 
更 大 。 据 此 ，Gruber 和 Fandakova(2021) 假 设 ， 随 着 年 龄 的 增长 ， 个 体 不 断 经 历 


各 种 认 知 冲突 导致 的 信息 缺口 ， 基 于 ACC 的 冲突 处 理 能 力 不 断 提高 ， 而 ACC 
激活 上 的 差异 ， 进 一 步 导 致 基于 PFC 的 评估 系统 差异 化 地 发 展 ， 最 终 使 儿童 和 
青少年 表现 出 差异 化 的 好 奇 和 好 奇 驱动 的 探索 行为 。 男 一 项 纵 癌 研究 结果 也 显 
AN» 7~15 岁 儿 童 PFC 的 结构 变化 与 评估 过 程 的 发 展 有 关 (Fandakova et al., 2017)。 
Fandakova 等 人 (2017, 2018, 2021) 倾 向 于 将 LPFC 理解 为 评估 系统 ， 但 在 EVC HE 
架 中 LPFC 更 多 体现 的 是 控制 的 执行 (Shenhav et al., 2016)。 就 好 奇 相关 研究 来 说 ， 
两 种 观点 似乎 都 可 以 解释 现 有 的 研究 结果 ， 至 于 哪 一 种 更 合理 仍 需 进一步 探讨 。 
另外 ，PFC 是 一 个 比较 模糊 的 脑 区 定位 ， 它 涉及 很 多 亚 区 , 不 同 亚 区 在 功能 上 也 
是 存在 差异 的 (Reverberi, Lavaroni, et al., 2005)， 有 必要 对 其 进行 更 细致 的 区 分 。 

总 的 来 说 ， 年 幼儿 童 更 依赖 于 ACC 和 AT 的 功能 ， 对 简单 的 信息 预测 偏差 
产生 反应 ， 从 而 表现 出 不 加 区 分 的 高 好 奇 。 随 着 额 叶 系 统 的 成 熟 ，LPFC 开始 对 
包括 信息 预测 偏差 及 以 外 的 其 它 相 关 因 素 进行 综合 评估 (Fandakova et al., 2017, 
2018; Fandakova & Gruber, 2021)， 又 或 者 具有 更 强 的 控制 能 力 使 注意 能 聚焦 于 当 
前 任务 (Reverberi, Toraldo, et al., 2005; Shimamura, 2000)。 这 都 可 能 是 年 龄 较 小 的 
孩子 对 不 同 领 域 表 现 出 广泛 的 兴趣 , 而 年 龄 较 大 的 孩子 的 兴趣 领域 开始 减少 和 分 
化 的 原因 (Frenzel et al., 2012)。 一 旦 好 奇 被 诱发 ，LPFC 还 会 通过 刺激 中 脑 边 缘 系 
统 多 巴 胺 能 通路 来 调节 海马 依赖 的 学 习 (Gruber et al., 2014; Lau et al., 2020)。 可 能 
正 是 发 展 了 的 PFC 与 海马 依赖 性 学 习 的 多 巴 胺 能 神经 调节 之 间 的 交互 作用 ， 让 
我 们 看 到 上 文 提 到 的 现象 , 即 信 息 预 测 偏差 引发 的 好 奇 对 青少年 的 记忆 增强 作用 
要 强 于 儿童 (Fandakova & Gruber, 2021). 

3.2 SF MAF RB 

好 奇 除 了 会 随 年 龄 增长 表现 出 不 断 的 分 化 外 , 还 会 随 着 个 体 的 衰老 而 出 现 衰 
退 。 大 量 调查 研究 发 现 ， 从 成 年 早期 到 成 年 晚期 ， 个 体 的 知识 好 奇 、 人 际 好 奇 和 
自我 好 奇 等 都 会 随 年 龄 的 增长 而 下 降 (Robinson et al., 2017)。 与 好 奇 相 关 的 开放 
性 (openness to experience; Costa et al., 2000; Ziegler et al.，201$)、 感 觉 寻求 
(sensation seeking; Giambra et al., 1992)、 探 索 行为 (exploratory behaviors; Kashdan 
et al., 2009; Kashdan et al., 2004) 都 表现 出 相应 的 降低 。 

好 奇 及 其 相关 行为 的 衰退 主要 与 两 个 系统 一 一 DA 系统 和 NE 系统 的 退化 有 
关 。DA 系统 和 NE 系统 很 容易 受到 衰老 的 影响 。 老 年 人 大 脑 中 这 些 对 好 奇 至 关 
重要 的 脑 区 的 功能 削弱 和 结构 受 损 , 可 能 是 导致 前 面 提 到 的 主观 好 奇 及 其 相关 行 
为 下 降 的 一 个 重要 原因 (Chowdhury et al., 2013; Eppinger et al., 2013; Sakaki et al., 
2018)。 

不 过 , 也 正 因为 好 奇 能 激活 上 述 两 个 系统 , 使 好 奇 成 为 抗 衰老 的 一 剂 保护 剂 。 
海马 会 随 着 年 龄 增长 出 现 功 能 障碍 (Mitchell et al., 2000; Raz et al., 2010)， 而 好 奇 
可 以 通过 DA 系统 和 NE 系统 刺激 海马 , 以 减缓 记忆 功能 的 退化 (Lisman & Grace, 
2005)。 短 和 暂 的 好 奇 激发 ， 或 形成 长 期 的 好 奇特 质 对 衰老 有 很 好 的 抵抗 作用 。 一 
项 纵向 研究 发 现 , 保持 好 奇 可 以 让 个 体 终身 受益 , 尤其 是 在 影响 海马 促进 记忆 上 
(Martin et al., 2007)。 除 了 记忆 保护 ， 好奇 对 其 它 认 知 功 能 也 有 改善 作用 ,这 可 能 
与 DA 系统 和 NE 系统 对 PFC 的 刺激 有 关 (Sakaki et al., 2018). 

4 总 结 与 展望 

综 上 所 述 , 好奇 的 反馈 循环 模型 从 动态 过 程 的 视角 看 竺 好 奇 的 发 生发 展 , 把 
一 次 好 奇 事 件 分 解 成 以 下 6 个 过 程 ， 即 : 感知 信息 缺口 、 好 奇 发 生 、 控 制 的 价值 
评估 、 信 息 寻 求 、 好 奇 满 足 、 信 息 整合 。 作 为 一 个 动态 变化 的 过 程 ， 以 上 每 一 个 
环节 都 会 受到 当前 信息 输入 和 上 一 环节 反馈 输出 的 影响 。 模 型 确立 了 好 奇 的 内 部 


动机 本 质 , 将 好 奇 诱发 的 情绪 和 行为 分 离 出 来 , 具体 分 析 了 每 个 阶段 发 生 的 条 件 、 
过 程 及 影响 。 该 模型 以 RL 模型 为 原型 ， 区 别 在 于 好 奇 情境 中 最 重要 的 强化 物 是 
满足 好 奇 的 信息 本 身 ， 而 非 其 它 外 部 奖励 。 因 此 ， 在 好 奇 反 馈 循环 中 ， 不断 地 诱 
发 、 满 足 好 奇 ， 并 获得 超出 预期 的 目标 信息 才 是 可 持续 性 知识 获取 的 关键 。 

另外 , 好 奇 的 这 种 动态 循环 嵌入 在 个 体 的 终生 发 展 过 程 中 , 一 方面 它 受 到 生 
命 发 展 中 各 种 生理 性 变化 的 影响 和 限制 ; 但 另 一 方面 , 好 奇 循环 的 反复 巩固 也 会 
引起 生理 上 的 变化 ， 这 种 改变 又 反 过 来 影响 我 们 的 生命 进程 。 总 的 来 讲 ， 好 奇 相 
关 的 两 个 系统 一 一 DA 系统 和 NE 系统 一 一 对 短期 的 注意 、 记 忆 和 信息 寻求 行为 
有 促进 作用 ， 对 长 期 的 认 知 功能 维持 与 改善 也 大 有 益处 。 然 而 ， 即 便 好 奇 对 从 出 
生 到 年 老 的 个 体 发 展 意义 重大 , 但 对 好 奇 发 展 的 特点 及 其 背后 的 神经 生理 机 制 研 
究 才 刚刚 起 步 ， 我 们 仍 需 要 更 多 的 研究 数据 才能 对 其 形成 一 个 更 完整 的 认 知 。 

好 奇 研究 越 来 越 具有 跨 学 科 性 和 多 领域 交叉 性 , 这 就 需要 有 一 个 统一 的 概念 
和 框架 作为 进一步 科学 讨论 的 基础 。 关 于 未 来 好 奇 的 研究 ， 可 以 加 强 对 以 下 几 个 
方面 的 关注 。 
4.1 加 强 对 好 奇 满足 的 重视 

以 往 研 究 更 多 关心 好 奇 诱发 所 带 来 的 各 种 好 处 , 却 忽视 了 好 奇 满足 才 是 这 些 
好 处 存在 的 关键 。 事 实 上 ， 好 奇 得 不 到 满足 才 是 日 常生 活 中 的 常态 ， 它 往往 会 带 
来 一 系列 负 性 影响 。 例 如 ， 有 研究 发 现 ， 知 识 好 奇 不 被 满足 带 来 的 认 知 空虚 会 使 
个 体 产 生 更 多 的 非 理性 消费 ， 个 体会 用 物质 满足 蔡 代 知识 满足 (Wiggin et al., 
2019)。 因 此 ， 后 续 研究 有 必要 对 好 奇 满足 予以 更 多 的 关注 。 
4.2 改进 现 有 的 好 奇 研究 范式 

关于 好 奇 的 研究 ,一 类 是 把 好 奇 作 为 稳定 特质 的 调查 研究 ， 另 一 类 是 针对 短 
和 暂 的 好 奇 状 态 的 实验 研究 .短暂 的 好 奇 状态 的 研究 常用 的 研究 范式 包括 引发 知觉 
好 奇 的 模糊 图 片 范 式 (Jepma et al., 2012; Wiggin et al., 2019) 和 引发 知识 好 奇 的 冷 
知识 问题 范式 (Kang et al., 2009; Ligneul et al., 2018; Marvin & Shohamy, 2016). RE 
术 (Lau et al.，2020) 或 抽奖 任务 范式 (Kobayashi & Hsu, 2019; van Lieshout, de 
Lange, et al., 2021, van Lieshout, Traast, et al., 2021) 也 常 被 用 于 诱发 好 奇 ， 但 在 诱 
发 的 好 奇 类 型 上 较为 模糊 。 

这 些 好 奇 研 究 范 式 在 解决 一 些 特定 问题 上 是 存在 局 限 的 。 例 如 ，(1) 好 奇 满 
足 信息 要 么 直接 呈现 ， 要 么 用 代价 (等 待 时 间 、 代 币 或 经 历 厌 恶 刺 激 ) 换 取 ， 无 法 
反映 被 试 的 主动 信息 寻求 行为 。(2) 各 范式 基本 都 会 呈现 答案 ， 因 此 在 试 次 间 形 
成 了 对 好 奇 满足 的 稳定 期 待 ， 即 便 关 注 好 奇 满 足 ， 也 只 是 在 试 次 间 ( 有 些 试 次 满 
足 好 奇 ， 有 些 试 次 不 满足 好 奇 ) 进 行 比较 ， 无 法 得 知 持 续 的 好 奇 不 满足 会 对 被 试 
造成 什么 样 的 影响 。(3) 诱 发 好 奇 的 材料 缺乏 生态 效 度 和 实用 价值 ， 冷 知识 问题 
往往 因 其 不 成 体系 难以 被 整合 。 学 习 一 个 简短 的 、 独 立 的 冷 知 识 问 题 的 答案 可 能 
不 足以 激发 人 们 进一步 探索 这 个 话题 的 兴趣 。 因 此 ,这 类 范式 很 难 探 知 知识 积累 
对 主题 价值 感知 的 影响 。(4) 当 前 研究 范式 更 关注 那些 短暂 好 奇 对 信息 寻求 的 影 
响 (好 奇 满 足 信息 在 几 秒 钟 后 就 星 现 )， 虽 然 有 利于 刻画 信息 寻求 的 微观 机 制 ， 但 
对 整个 知识 获取 过 程 缺乏 整体 把 握 。 因 此 , 未 来 有 必要 对 好 奇 的 研究 范式 进行 充 
实 和 改进 ， 以 便 对 更 现实 、 具 体 的 好 奇 问题 进行 探讨 。 
4.3 加 强 对 内 部 、 外 部 奖励 使 用 的 比较 

好 奇 诱发 的 学 习 和 外 部 奖励 (extrinsic rewards) 诱 发 的 学 习 本 质 上 都 是 基于 奖 
励 的 学 习 ， 二 者 的 区 别 在 于 好 奇 是 内 部 动机 ， 满 足 好 奇 的 信息 是 内 部 奖励 
(intrinsic rewards)。 很 多 针对 好 奇 的 研究 ， 往 往 在 研究 过 程 中 既 包 含 外 部 奖励 ， 


又 包含 内 部 奖励 ， 混 淆 的 变量 会 影响 对 好 奇 的 理解 和 解释 。 

更 重要 的 是 ， 缺 乏 对 内 部 动机 和 外 部 动机 驱动 的 学 习 过 程 的 比较 研究 。 从 
Festinger 和 Carlsmith (Festinger & Carlsmith, 1959) 提 出 认 知 失调 后 ， 研 究 者 们 就 
意识 到 了 外 部 奖励 不 足 时 ， 人 们 会 自己 生成 奖励 以 使 行为 合理 化 。 之 后 , 研究 者 
们 陆续 发 现 , 外 部 动机 有 时 会 削弱 内 部 动机 ， 从 而 减少 个 体 对 任务 的 投入 (Deci et 
al., 1999; Eisenberger et al., 1999)。 这 提示 教育 者 必须 非常 小 心地 使 用 外 部 奖励 ， 
避免 适得其反 。 因 此 ， 后 续 研 究 有 必要 对 内 部 奖励 、 外 部 奖励 的 编码 过 程 、 使 用 
时 机 和 使 用 情境 进行 探讨 ， 尽 量 保证 学 习 过 程 是 一 个 自我 驱动 的 自 增 长 过 程 。 
4.4 重视 好 奇 的 发 展 性 研究 

从 状态 到 特质 ， 从 动物 到 人 ， 从 婴儿 到 老年 ， 好 奇 都 有 其 重要 的 生存 意义 。 
但 在 对 好 奇 的 研究 中 ， 大 多 数 研 究 者 关心 的 只 是 它 对 青少年 及 成 人 的 认 知 促进 ， 
忽略 了 它 的 在 个 体 发 展 中 的 变化 规律 。 例 如 , 迄今 为 止 几 乎 没有 研究 直接 对 儿童 
的 好 奇 进行 测量 。 好 奇 如 何 从 小 循环 进入 大 循环 , 在 更 长 的 时 间 尺 度 上 发 生发 展 
是 今后 需要 重视 的 一 个 课题 。 


pany 
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